科研星球

如何从HIS中提取临床科研数据

和大家聊一聊这个问题,原来以为这不是个问题,但实际上还真是个大问题,目前仍然有很多同学包括一些大型三甲医院的主任教授还是利用手工方式查找提取数据,这样效率太低了,也很难达到高质量科研成果所需要的数据量,以前没有HIS系统,必须手工,现在可是用不着这样了。

在医院里提取临床科研数据除了少数医院建立了院内数据库外,大多数医院没有这样的条件,如需收集大量数据,还是需要请信息部门的同事帮忙的,但这也是需要一个流程的不然的话事倍功半。

大家都知道临床数据最大的特点是结构复杂,简单理解就是很难利用一张表将所有的数据都涵盖进去,各位有体会吧,一张表,每个病人一行,一千多列甚至几千列,以往是不是这样做的,这充分体现了结构复杂的特点,比金融、电信数据复杂多了。

先简单了解一下我们需要HIS系统中的哪些数据,当然还有没有包含在HIS系统中的电子数据,现在统称为HIS系统;

病案数据,病人住院的基本信息,包括人口学信息、入院出院日期、主要诊断、住院次数等等,一般对应病案首页;

化验数据,化验项名称、化验结果、结构类型(数值/字符)、单位、参考值、化验时间等等,一般对应LIS系统;

用药数据,药物名称(化学名称、商品名称)、用量、用法、时间等等,一般可以从医嘱信息中提取;

检查数据,超声、MRI、CT等等,对应PACS等系统;

病理数据,手术、穿刺等;

治疗数据,手术、治疗、护理等,大多数可以从医嘱信息中提取;

其他数据;

这些数据是通过id来连接起来的,包括病人id(每个病人的唯一标识)和住院id(每个病人每次住院的唯一标识,经常由病人id与住院次数结合而成),一个病人id对应一个或多个病人住院id(即一个病人可能会多次住院)。

了解HIS系统数据特点,则方便提取数据,提取数据大概有两个步骤,一是确定入组的id,二是根据id提取各类所需要的数据;

一般我们提取数据是有条件的,经常提取某种疾病的数据,则先要确定病人id或住院id,可以通过病案首页中的主要诊断(次要诊断)来确认,也可以通过化验数据、病理数据等根据诊断标准来确认,当疾病为慢性疾病时应以病人id为准,当疾病为急性疾病时应以住院id为准,因为当慢性疾病确诊时,其一定周期内都存在该疾病的主要特征,虽然某次住院中的主要有关信息并未体现出该疾病名称。这一步是需要与信息部门紧密配合来完成的,例如信息部门先将病案信息导出(Excel),科研人员在其中找出所需要的病人id或住院id,这样就得到了一组id,这些id所对应的数据则是我们科研所需的具体数据。

再根据这组id分别在不同的系统中提取我们所需要的各类数据,常用的数据有病案数据--病案首页,化验数据--LIS,用药信息--医嘱信息,等等。提取病案数据时注意做一下脱敏,即将有关病人的私人信息且与科研无关的内容删除,如姓名、住址、电话号码、联系人信息、身份证号码等待,这样对大家都是一种保护,也是对患者的尊重。此步工作是信息部门同事来完成的。

提取出来的数据为Excel格式或其他格式,会得到若干个Excel表,这些表是通过id来关联的,与大家以往的单张表的形式不太一样吧。这些是原始数据,一般不能直接进行分析,还需要进行大量的整理工作。



没有账号?